智能论文笔记

Utilizing XAI technique to improve autoencoder based model for computer network anomaly detection with shapley additive explanation(SHAP)

Khushnaseeb Roshan , Aasim Zafar

分类：机器学习 | 人工智能

2021-12-14

机器学习（ML）和深度学习（DL）方法正在迅速采用，尤其是计算机网络安全，如欺诈检测，网络异常检测，入侵检测等等。然而，ML和DL基础模型缺乏透明度是其实施和由于其黑匣子性质而受到批评的主要障碍，即使具有如此巨大的结果。可解释的人工智能（XAI）是一个有希望的区域，可以通过给出解释和解释其产出来改善这些模型的可信度。如果ML和基于DL的模型的内部工作是可以理解的，那么它可以进一步帮助改善其性能。本文的目的是表明，Xai如何用于解释DL模型的结果，在这种情况下是AutoEncoder。并且，根据解释，我们改善了计算机网络异常检测的性能。基于福谢值的内核形状方法用作新颖的特征选择技术。此方法用于仅识别实际上导致该组攻击/异常实例的异常行为的那些功能。稍后，这些功能集用于培训和验证AutoEncoder，而是仅在良性数据上验证。最后，基于特征选择方法提出的其他两个模型的内置Shap_Model始终。整个实验是在最新的Cicids2017网络数据集的子集上进行的。 Shap_Model的总体精度和AUC分别为94％和0.969。

translated by 谷歌翻译

Brain Tumor Synthetic Data Generation with Adaptive StyleGANs

Usama Tariq , Rizwan Qureshi , Anas Zafar , Danyal Aftab , Jia Wu , Tanvir Alam , Zubair Shah , Hazrat Ali

分类：计算机视觉 | 机器学习

2022-12-04

Generative models have been very successful over the years and have received significant attention for synthetic data generation. As deep learning models are getting more and more complex, they require large amounts of data to perform accurately. In medical image analysis, such generative models play a crucial role as the available data is limited due to challenges related to data privacy, lack of data diversity, or uneven data distributions. In this paper, we present a method to generate brain tumor MRI images using generative adversarial networks. We have utilized StyleGAN2 with ADA methodology to generate high-quality brain MRI with tumors while using a significantly smaller amount of training data when compared to the existing approaches. We use three pre-trained models for transfer learning. Results demonstrate that the proposed method can learn the distributions of brain tumors. Furthermore, the model can generate high-quality synthetic brain MRI with a tumor that can limit the small sample size issues. The approach can addresses the limited data availability by generating realistic-looking brain MRI with tumors. The code is available at: ~\url{https://github.com/rizwanqureshi123/Brain-Tumor-Synthetic-Data}.

translated by 谷歌翻译

Self-Supervised Mental Disorder Classifiers via Time Reversal

Zafar Iqbal , Usman Mahmood , Zening Fu , Sergey Plis

分类：机器学习

2022-11-29

Data scarcity is a notable problem, especially in the medical domain, due to patient data laws. Therefore, efficient Pre-Training techniques could help in combating this problem. In this paper, we demonstrate that a model trained on the time direction of functional neuro-imaging data could help in any downstream task, for example, classifying diseases from healthy controls in fMRI data. We train a Deep Neural Network on Independent components derived from fMRI data using the Independent component analysis (ICA) technique. It learns time direction in the ICA-based data. This pre-trained model is further trained to classify brain disorders in different datasets. Through various experiments, we have shown that learning time direction helps a model learn some causal relation in fMRI data that helps in faster convergence, and consequently, the model generalizes well in downstream classification tasks even with fewer data records.

translated by 谷歌翻译

Effects of Epileptiform Activity on Discharge Outcome in Critically Ill Patients

Harsh Parikh , Kentaro Hoffman , Haoqi Sun , Wendong Ge , Jin Jing , Rajesh Amerineni , Lin Liu , Jimeng Sun , Sahar Zafar , Aaron Struck

分类：机器学习

2022-03-09

影响重症患者护理的许多基本问题会带来类似的分析挑战：医生无法轻易估计处于危险的医疗状况或治疗的影响，因为医疗状况和药物的因果影响是纠缠的。他们也无法轻易进行研究：没有足够的高质量数据来进行高维观察性因果推断，并且通常无法在道德上进行RCT。但是，机械知识可获得，包括如何吸收人体药物，并且这些知识与有限数据的结合可能就足够了 - 如果我们知道如何结合它们。在这项工作中，我们提出了一个框架，用于在这些复杂条件下对重症患者的因果影响估算：随着时间的流逝，药物与观察之间的相互作用，不大的患者数据集以及可以代替缺乏数据的机械知识。我们将此框架应用于影响重症患者的极其重要的问题，即癫痫发作和大脑中其他潜在有害的电气事件的影响（称为癫痫样活动 - EA）对结局。鉴于涉及的高赌注和数据中的高噪声，可解释性对于解决此类复杂问题的故障排除至关重要。我们匹配的小组的解释性使神经科医生可以执行图表审查，以验证我们的因果分析的质量。例如，我们的工作表明，患者经历了高水平的癫痫发作般的活动（75％的EA负担），并且未经治疗的六个小时的窗口未受治疗，平均而言，这种不良后果的机会增加了16.7％。作为严重的大脑损伤，终生残疾或死亡。我们发现患有轻度但长期EA的患者（平均EA负担> = 50％）患有不良结果的风险增加了11.2％。

translated by 谷歌翻译

NeuraHealth: An Automated Screening Pipeline to Detect Undiagnosed Cognitive Impairment in Electronic Health Records with Deep Learning and Natural Language Processing

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理

2022-01-12

与痴呆症相关的认知障碍（CI）在全球范围内影响超过5500万人，并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败，早期诊断至关重要，但是在低水平和中等收入国家中，全球75％的痴呆症病例未被诊断为90％。众所周知，当前的诊断方法是复杂的，涉及对医学笔记，大量认知测试，昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录（EHR）中找到，并且可以为早期诊断提供重要线索，但是专家的手动审查是繁琐的，并且容易发生。该项目开发了一种新型的最新自动筛选管道，用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境，构建了一个8,656个序列的数据库，以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93％，AUC = 0.98，以识别其EHR中没有较早诊断，与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则，这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中，这是一种用于自动化和实时CI筛选的Web应用程序，只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜，更快，更容易获得，并且胜过当前的临床方法，包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行，但可访问的互联网或蜂窝服务。

translated by 谷歌翻译

Frame invariance and scalability of neural operators for partial differential equations

Muhammad I. Zafar , Jiequn Han , Xu-Hui Zhou , Heng Xiao

分类：机器学习

2021-12-28

部分微分方程（PDE）在许多复杂动态过程的数学建模中发挥着主导作用。解决这些PDE通常需要预定的计算成本，特别是当必须对不同的参数或条件进行多次评估时。在培训之后，神经运营商可以比传统的PDE溶剂更快地提供PDES解决方案。在这项工作中，检查两个神经运营商的不变性属性和计算复杂性，用于标量数量的运输PDE。基于图形内核网络（GKN）的神经运算符在图形结构数据上运行，以合并非识别依赖性。在这里，我们提出了改进的GKN制定以实现帧不变性。传染媒介云神经网络（VCNN）是一个具有嵌入式帧不变性的替代神经运算符，可在点云数据上运行。基于GKN的神经运营商与VCNN相比，略微更好地预测性能。然而，GKN需要过度高的计算成本，与VCNN的线性增加相比，随着越来越多的离散物对象而直角增加。

translated by 谷歌翻译

More Than Words: Towards Better Quality Interpretations of Text Classifiers

Muhammad Bilal Zafar , Philipp Schmidt , Michele Donini , Cédric Archambeau , Felix Biessmann , Sanjiv Ranjan Das , Krishnaram Kenthapadi

分类：自然语言处理

2021-12-23

最先进的文本分类器的大尺寸和复杂的决策机制使人类难以理解他们的预测，导致用户缺乏信任。这些问题导致采用Shail和集成梯度等方法来解释分类决策，通过为输入令牌分配重要性分数。然而，使用不同的随机化测试之前的工作表明，通过这些方法产生的解释可能不具有稳健性。例如，对测试集的相同预测的模型可能仍然导致不同的特征重要性排名。为了解决基于令牌的可解释性缺乏稳健性，我们探讨了句子等更高语义层面的解释。我们使用计算指标和人类主题研究来比较基于令牌的句子的解释的质量。我们的实验表明，更高级别的特征属性提供了几个优点：1）由于随机化测试测量，2）当使用近似的基于方法等诸如Shav等的方法来说，它们更加强大，并且3）它们更容易理解在语言相干性在更高的粒度水平上存在的情况下的人类。基于这些调查结果，我们表明，令牌的可解释性，同时是鉴于ML模型的输入接口的方便的首选，不是所有情况中最有效的选择。

translated by 谷歌翻译

Amazon SageMaker Model Monitor: A System for Real-Time Insights into Deployed Machine Learning Models

David Nigenda , Zohar Karnin , Muhammad Bilal Zafar , Raghu Ramesha , Alan Tan , Michele Donini , Krishnaram Kenthapadi

分类：机器学习 | 人工智能 | (统计)机器学习

2021-11-26

随着机器学习（ML）模型和系统在不同行业的高赌注环境中的增加，保证了部署后的模型的性能变得至关重要。生产中的监测模型是确保其持续性能和可靠性的关键方面。我们展示了Amazon Sagemaker Model Monitor，这是一个完全托管的服务，不断监控亚马逊Sagemaker上托管的机器学习模型的质量。我们的系统实时地自动检测模型中的数据，概念，偏置和特征归因漂移，并提供警报，以便模型所有者可以采取纠正措施，从而保持高质量模型。我们描述了从客户，系统设计和架构获得的关键要求以及用于检测不同类型漂移的方法。此外，我们提供量化评估，然后使用案例，见解和从超过1.5年的生产部署中汲取的经验教训。

translated by 谷歌翻译

Using Deep Learning to Identify Patients with Cognitive Impairment in Electronic Health Records

Tanish Tyagi , Colin G. Magdamo , Ayush Noori , Zhaozhi Li , Xiao Liu , Mayuresh Deodhar , Zhuoqiao Hong , Wendong Ge , Elissa M. Ye , Yi-han Sheu

分类：自然语言处理 | 机器学习

2021-11-13

痴呆症是一种神经退行性疾病，导致认知下降，并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断，也可能无法作为患者图表中的疾病（ICD）诊断码的结构化国际分类。与认知障碍（CI）有关的信息通常在电子健康记录（EHR）中发现，但专家临床医生票据的手工审查既耗时，往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理（NLP）工具，以识别具有认知障碍的患者，并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型，可以从复杂的语言结构中学习，并且相对于基线NLP模型的精度（0.93）大大提高（0.84）。此外，我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。

translated by 谷歌翻译

Fairness Beyond Disparate Treatment & Disparate Impact: Learning Classification without Disparate Mistreatment

Muhammad Bilal Zafar , Isabel Valera , Manuel Gomez Rodriguez , Krishna P. Gummadi

分类：

2016-10-26

Automated data-driven decision making systems are increasingly being used to assist, or even replace humans in many settings. These systems function by learning from historical decisions, often taken by humans. In order to maximize the utility of these systems (or, classifiers), their training involves minimizing the errors (or, misclassifications) over the given historical data. However, it is quite possible that the optimally trained classifier makes decisions for people belonging to different social groups with different misclassification rates (e.g., misclassification rates for females are higher than for males), thereby placing these groups at an unfair disadvantage. To account for and avoid such unfairness, in this paper, we introduce a new notion of unfairness, disparate mistreatment, which is defined in terms of misclassification rates. We then propose intuitive measures of disparate mistreatment for decision boundary-based classifiers, which can be easily incorporated into their formulation as convex-concave constraints. Experiments on synthetic as well as real world datasets show that our methodology is effective at avoiding disparate mistreatment, often at a small cost in terms of accuracy.

translated by 谷歌翻译